智能论文笔记

Understanding the Effects of Dataset Characteristics on Offline Reinforcement Learning

Kajetan Schweighofer , Markus Hofmarcher , Marius-Constantin Dinu , Philipp Renz , Angela Bitto-Nemling , Vihang Patil , Sepp Hochreiter

分类：机器学习 | 人工智能

2021-11-08

在现实世界中，通过弱势政策影响环境可能是昂贵的或非常危险的，因此妨碍了现实世界的加强学习应用。离线强化学习（RL）可以从给定数据集中学习策略，而不与环境进行交互。但是，数据集是脱机RL算法的唯一信息源，并确定学习策略的性能。我们仍然缺乏关于数据集特征如何影响不同离线RL算法的研究。因此，我们对数据集特性如何实现离散动作环境的离线RL算法的性能的全面实证分析。数据集的特点是两个度量：（1）通过轨迹质量（TQ）测量的平均数据集返回和（2）由状态 - 动作覆盖（SACO）测量的覆盖范围。我们发现，禁止政策深度Q网家族的变体需要具有高SACO的数据集来表现良好。将学习策略朝向给定数据集的算法对具有高TQ或SACO的数据集进行了良好。对于具有高TQ的数据集，行为克隆优先级或类似于最好的离线RL算法。

translated by 谷歌翻译